查看原文
其他

信用风险评分卡系列之数据处理(一)

Patrick 66号学苑 2022-09-08

本系列文章主要介绍信用风险评分卡制作流程,如果想对信用风险深入了解,给大家推荐如下书单:


1.《信用风险评分卡研究—基于 SAS 的开发与实施》,作者:Mamdouh·Refat

2.《互联网金融时代:消费信贷评分建模与应用》,作者:单良 ,‎ 茆小林

3.《消费信用模型:定价、利润与组合》,作者: Lyn C. Thomas

4.《消费金融真经: 个人贷款业务全流程指南(原书第2版) 》,作者:戴维•劳伦斯(David Lawrence) 阿琳•所罗门(Arlene Solomon)译者:张宇


信用风险评分模型是评估贷款人的资信状况来预测申请人未来发生违约概率的模型。本文将从数据、特征变量、模型开发、模型验证、评分卡制作等几部分介绍从数据到评分卡的基本流程。


1.数据来源

用于制作评分模型的数据有很多:电商购物交易流水、手机SDK获取的各类隐私数据(通讯录、通话记录、LBS、app列表、app行为数据)、社保、公积金、学历、社交信息、电信运营商数据、第三方的多头和黑名单等数据,还有信息维度最多的人行征信报告。本文采取的案列数据来自UCI机器学习数据库(http://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients)。当然也可以去kaggle网站寻找合适的练习数据。

 

2.数据描述


3.数据预处理

(1)首先需要理解数据的业务含义,比如age小于0或者超出正常水平很离谱就违背了业务常识,需要做清理;

(2)对于一些未知含义的数据作统一转换,比如婚姻状况本身只有三种,1 = married; 2 = single; 3 = others,而在源数据中却出现了婚姻状况的数据值为0,同样,在教育程度的变量中,1 = graduate school; 2 = university; 3 = high school; 4 = others,但也出现的意义不明的值,我们需要将这些值以及others统一做处理转换。


4.数据勘探

对数据进行一个基本层面的分析,以便更好地理解数据。变量分两种类型:离散型变量和连续型变量。


(1)字符型变量:主要是看数据各个类别的分布情况,主要图形方法有条形图以及饼形图,统计方法有频数分布统计等。以数据中的 EDUCATION 为例, 条形图的运行结果如下。教育程度中,大多数客户集中在 1&2, 也就是学历为 graduate school 和 university 的客户较多;


(2)数值型变量:主要看该变量的集中趋势和离散趋势,集中趋势主要统计量有均值、中位数等,离散趋势主要统计量有标准差、方差、四分位差、全距等。


5.数据处理

在对数据做基本勘探后,继续对数据做处理:


(1)缺失值,包括分析缺失值的占比,分析缺失值产生的原因,判断是否可以删除存在缺失值的sample,以及对缺失值的插补。可以根据数据是离散型和连续型,取平均数、中位数、众位数等来填充。另外还可以考虑,通过模型来预测缺失变量进行填补;


(2)异常值,遇到个别数据值偏离预期或大量统计数据值结果的情况,如果把这些数据值和正常数据值放在一起进行统计,可能会影响结果的正确性,如果把这些数据值简单地剔除,又可能忽略了重要信息。这里重要的问题是如何判断异常值,然后将其剔除。


a.如前述,根据对客观事物已有的认识,判断age值正常范围


b.统计判别法,给定一个置信概率并确定一个置信限,超过限制就属于异常值。如果数据呈正态分布,对于大于 μ+3σ 或小于 μ—3σ 的数据值作为异常值; 一般根据分位数结合箱线图进行判断处理;


c.重复值,对于重复值超过 90%的变量剔除。如果数据90%是重复的,跟90%是缺失一个意思,变量的意义不是太大。


6.数据清洗

(1)日期格式的清洗。因为在后面的衍生变量中,我们需要用到日期类的变量去衍生变量,所以日期格式的清洗就方便我们做对日期格式相加减,譬如把“2016 年 4 月 6 号”转化为“2016-04-06”  ;


(2)字符变量的清洗。字符变量譬如客户地址,我们在建模中并不需要客户的地址精确到那条街那个门牌号,我们只需要客户的居住地址(精确到县),那么我们就需要对客户填写的地址清洗出那个市以及那个县,例如:”深圳市龙华新区梅林关口民乐老村99 栋”我们只需要“深圳市龙华新区”,包括银行也是,“中国银行深圳福田支行”,我们只需要“中国银行”就可以了;


(3)数值变量的清洗。譬如在数据库中有这么一个变量,居住年限,这个变量有时候是手工输入的,因为人的逻辑不一样,有些人就填是从那一年住的“2014”,有些人就填是住了几年“3”,但其实,“2014”和“3”是相同的居住年限,那么这时候就应该识别出“2014”清洗居住年限为 3 年。


以上为数据处理的主要过程(不限定顺序),在特征工程中,这些过程会经常反复进行。下文会介绍衍生变量、特征变量分析和筛选。


来源|互金风控联盟

作者| Patrick


更多精彩,戳这里:


|这是一份可以让你很牛很牛的风控技能包|

|一秒get互联网金融风控模型评价方法|

|关于模型的100个问答—part3|

|评分卡建设第三课:变量分组(强弱之分)|

|如何解决Logistic做模型效果不好|


点击阅读原文,即可报名信用评分卡模型系列


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存